查看原文
其他

论文推荐|[ICCV 2019]基于形状匹配对抗式生成网络的可控艺术字体风格迁移(有源码)

本文简要介绍IEEE ICCV 2019录用论文“Controllable Artistic Text Style Transfer via Shape-Matching GAN”的主要工作。该论文主要针对文字风格化问题,提出了一种双向结构映射框架,可以将输入风格图的结构和纹理特征渲染到目标文字上,从而获得艺术字,并能调节艺术字的变形程度,取得了文字可识别性与文字艺术效果上的平衡。


图1 本文方法效果图

一、研究背景 

艺术字在现实生活中有着广泛的应用,例如广告平面设计、海报设计、PPT制作等等,使用艺术效果更强烈的文字作为标题,能够吸引注意,更加突出其表达的内容。对于用户输入的任意一张风格图,例如火焰而言,想要生成对应的火焰文字,势必要对文字的形状做出调整,使之边缘部分看上去更像舞动的火焰。但是,过大的文字变形会使得文字难以辨认,失去其本身所乘载的价值。因此,我们需要在文字的可识别性和艺术性上取得平衡。而现有的图像风格化工作[1]-[3]以及专门针对文字的风格化工作[4][5]都没有考虑到这一点。

 

二、ShapeMatchingGAN原理简述 


图2 网络整体框架图

图 2是这篇文章提出的ShapeMatchingGAN的整体结构。由于风格的复杂性,本文方法采取模块分解的思路,将结构与纹理分开处理。网络主要分为三个部分,分别是Sketch Module, Glyph Network和Texture Network。而双向结构匹配的框架主要分为两个部分,反向匹配和正向匹配。

在反向匹配阶段,网络主要利用Sketch Module将文字的形状特征迁移到风格图的主要结构上,获得简化的结构图,与风格图、风格的结构图一起,组成训练集。其中,风格的结构图是使用抠图的方式得到的前景Mask。下图展示了Sketch Module的网络结构。网络使用包含高斯卷积的Smoothness Block将结构图与文字图映射到同一个模糊空间,然后训练Transformation Block的去模糊模块,将模糊的文字图映射回原文字,从而学会从模糊的边缘重建文字的形状特征。当输入结构图时,Transformation Block就能将其结构简化。另外,通过调整高斯模糊的模糊程度,就能控制输出的简化结构图的简化程度,从而为后续的形变控制提供对应的成对数据。最后,只有一张风格图难以训练网络,所以采用随机裁剪的方式,将图片裁剪成图像块,生成足够的训练集。


图3 Sketch Module框架图


在正向匹配阶段,Glyph Network学习将不同简化程度的结构图映射回原始结构图,从而学会为简单的边缘增添风格图的结构特征,而Texture Network学习将结构图映射回风格图,从而学会为黑白图片渲染风格的纹理信息。

Texture Network的任务相对简单,是一个图像到图像的一对一映射过程。论文采用经典的Image-to-image Translation的网络来训练这个任务。

Glyph Network的任务相对困难,是一个多对一的映射。为了防止网络仅仅学会记住输出图片的样子,而不去学习映射过程,文章提出了可控的残差模块,代替中间层的标准残差模块。可控的残差模块由两个标准的残差模块线性组合而成,其加权系数由文字的变形程度控制,如图4所示。当=1时,可控的残差模块的右侧输出被截断,网络只训练左侧的残差模块完成最大变形程度的映射;反过来,当=0时,可控的残差模块的左侧输出被截断,网络只训练右侧的残差模块完成最小变形程度的映射。这两种映射都是一一映射,易于学习。最后,当在0到1之间取值的时候,整个网络学习在两种极端之间取得平衡。


图4 可控残差模块示意图
 
三、主要实验结果及可视化效果 

图5 与其他方法的比较
 

图6 形变程度比较
 

图7 动态风格化效果(Gif动图)
 
本文与3种图像风格化与2种文字风格化算法进行了比较。图5展示了相关的比较结果。可以看出,Image Analogy 和T-Effect都没有考虑文字的变形程度,因为边缘显得生硬。而NST和Doodle则产生了明显的色差。UT-Effect因为块融合的步骤,损失了一些边缘和纹理的细节。而本文的方法则取得了更优的结果。图6展示了本文方法与UT-Effect在文字变形程度上的比较。UT-Effect由于采用不同分辨率下块匹配的思路,所以无法保证变形程度调节的连续性,同时损失了边缘细节。而本文方法则能生成更准确的边缘细节,同时文字的变形也是连续变化,更方便用户的比较和选择。图7更清晰地展示了文字变形的Gif图,文字边缘的叶片和冰晶逐渐生长得愈发丰茂。
 
四、总结及讨论 
  1. ShapeMatchingGAN首次研究了文字形变程度可控的文字风格化问题,并且提出了一个有效的基于双向结构匹配的解决框架。

  2. ShapeMatchingGAN提出了一个Sketch Module将文字的形状特征迁移到风格图的形状上,从而将单张风格图扩展为不同简化程度下的成对的训练图片,为单张图像风格化的学习提供了有力的工具。

  3. ShapeMatchingGAN提出了一种可控的残差模块,能够通过对特征空间进行插值,达到对网络输出结果进行控制的目的,使得用户能够通过制定变形程度参数,快速地获得对应变形程度的艺术字。

 
五、相关资源 
  • ShapeMatchingGAN论文网站:

    https://williamyang1991.github.io/projects/ICCV2019/SMGAN.html

  • ShapeMatchingGAN论文代码:https://github.com/TAMU-VITA/ShapeMatchingGAN

  • T-Effect论文网站:http://www.icst.pku.edu.cn/struct/Projects/TET.html

  • UT-Effect论文网站:http://www.icst.pku.edu.cn/struct/Projects/UTS.html

  • TE141K字效数据库:https://daooshee.github.io/TE141K/

 
参考文献 
[1] A. Hertzmann, C. E. Jacobs, N.Oliver, B. Curless, and D. H. Salesin. Image analogies. SIGGRAPH. 2001
[2] L. A. Gatys, A. S. Ecker, and M.Bethge. Image style transfer using Convolutional neural networks. CVPR. 2016
[3] A. J. Champandard. Semantic style transfer and turning two-bit doodles into fine artworks. Arxiv. 2016
[4] S. Yang, J. Liu, Z. Lian, and Z.Guo. Awesome typography: statistics-based text effects transfer. CVPR. 2017
[5] S. Yang, J. Liu, W. Yang, and Z.Guo. Context-aware text-based binary image stylization and synthesis. TIP. 2019
  


原文作者:Shuai Yang, Zhangyang Wang, Zhaowen Wang, Ning Xu, Jiaying Liu and ZongmingGuo


撰稿:杨 帅

编排:高 学

审校:殷 飞

 发布:金连文 


免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (Email: xuegao@scut.edu.cn) 。



(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存